import pandas as pd
import numpy as np


# 读取数据并对数据进行处理
def data_preprocessing(path):
    # 1、获取原数据
    data_df = pd.read_csv(path)
    # 这里over18的特征列所有数值均为Y，标准工作时长为一个常数，直接删除
    data_df.drop(['Over18', 'StandardHours'], inplace=True, axis=1)
    # 2、对所有数据进行热编码
    data_df = pd.get_dummies(data_df)
    # Gender和OverTime均只有两个值，所以丢弃OverTime_No和Gender_Female数据，
    # 员工编号也无关紧要，可以直接删除。
    data_df.drop(['OverTime_No', 'Gender_Female', 'EmployeeNumber'], axis=1, inplace=True)
    # 3、将处理后的数据保存到processed中
    data_df.to_csv('../../data/processed/train.csv', index=False)
    return data_df


if __name__ == '__main__':
    data_preprocessing('../../data/raw/train.csv')
